16 research outputs found

    Attributes2Classname: A discriminative model for attribute-based unsupervised zero-shot learning

    Full text link
    We propose a novel approach for unsupervised zero-shot learning (ZSL) of classes based on their names. Most existing unsupervised ZSL methods aim to learn a model for directly comparing image features and class names. However, this proves to be a difficult task due to dominance of non-visual semantics in underlying vector-space embeddings of class names. To address this issue, we discriminatively learn a word representation such that the similarities between class and combination of attribute names fall in line with the visual similarity. Contrary to the traditional zero-shot learning approaches that are built upon attribute presence, our approach bypasses the laborious attribute-class relation annotations for unseen classes. In addition, our proposed approach renders text-only training possible, hence, the training can be augmented without the need to collect additional image data. The experimental results show that our method yields state-of-the-art results for unsupervised ZSL in three benchmark datasets.Comment: To appear at IEEE Int. Conference on Computer Vision (ICCV) 201

    Zero-Shot Object Detection by Hybrid Region Embedding

    Full text link
    Object detection is considered as one of the most challenging problems in computer vision, since it requires correct prediction of both classes and locations of objects in images. In this study, we define a more difficult scenario, namely zero-shot object detection (ZSD) where no visual training data is available for some of the target object classes. We present a novel approach to tackle this ZSD problem, where a convex combination of embeddings are used in conjunction with a detection framework. For evaluation of ZSD methods, we propose a simple dataset constructed from Fashion-MNIST images and also a custom zero-shot split for the Pascal VOC detection challenge. The experimental results suggest that our method yields promising results for ZSD

    Image Captioning with Unseen Objects

    Full text link
    Image caption generation is a long standing and challenging problem at the intersection of computer vision and natural language processing. A number of recently proposed approaches utilize a fully supervised object recognition model within the captioning approach. Such models, however, tend to generate sentences which only consist of objects predicted by the recognition models, excluding instances of the classes without labelled training examples. In this paper, we propose a new challenging scenario that targets the image captioning problem in a fully zero-shot learning setting, where the goal is to be able to generate captions of test images containing objects that are not seen during training. The proposed approach jointly uses a novel zero-shot object detection model and a template-based sentence generator. Our experiments show promising results on the COCO dataset.Comment: To appear in British Machine Vision Conference (BMVC) 201

    Görüntü Anlamlandırmak için Nitelik Tabanlı Sınıflandırıcılar

    No full text
    Attributes are mid-level semantic concepts which describe visual appearance, functional affordance or other human-understandable aspects of objects and scenes. In the recent years, several works have investigated the use of attributes to solve various computer vision problems. Examples include attribute based image retrieval, zero-shot learning of unseen object categories, part localization and face recognition. This thesis proposes two novel attribute based approaches towards solving (i) top-down visual saliency estimation problem, and, (ii) unsupervised zero-shot object classification problem. For top-down saliency estimation, we propose a simple yet efficient approach based on Conditional Random Fields (CRFs), in which we use attribute classifier outputs as visual features. For zero-shot learning, we also propose a novel approach to solve unsupervised zero-shot object classification problem via attribute-class relationships. However, unlike other attribute-based approaches, we require attribute definitions only at training time, and require only the names of novel classes of interest at test time. Our detailed experimental results show that our methods perform on par with or better than the state-of-the-art.Nitelikler nesne ve sahnelerin görsel, işlevsel ya da insanlar tarafından algılanabilecek diğer yönlerini tanımlayan orta-düzey semantik bilgileri temsil etmektedir. Son yıllarda, araştırmacıların nitelik kavramına ilgisi giderek artmakta ve bununla birlikte nitelik bilgisi çeşitli bilgisayarlı görü problemlerinin çözümünde sıklıkla kullanılmaktadır. Bu ilginin nedenleri çok çeşitli olmakla birlikte temelde iki neden sayılabilir: 1.Bilgisayarlı Görü alanında çalışılan problemlerde yerel ve genel bağlam bilgisini iyi kodlayabilmesi. 2.Giderek büyüyen veri kümeleri üzerinde işaretleme ve etiketleme yapmanın ortaya çıkardığı zorluklar. Nitelik bilgisinin problemlerin çözümünde kullanım formları çok farklı olabilmektedir. Örneğin, nitelikler ya da nitelik tabanlı sınıflandırıcı çıktıları, nesneleri ve sahneleri tanımlayan anlamsal öznitelikler olarak kullanılabilmektedir. Bunun dışında nitelik bilgileri, nesneler ya da sahneler arasındaki ilişkiyi tanımlamak için de kullanılmaktadır. Bu ilişkiler sıfır-bilgi öğrenme ya da sınırlı-bilgi öğrenme gibi problemlerin çözümüne büyük katkı sağlamaktadır. Bu tez, yukarıda bahsi geçen farklı nitelik kullanma yöntemlerini, iki önemli bilgisayarlı görü probleminin çözümünde kullanmaktadır. Bu problemler: 1. Yukarıdan-aşağıya dikkat çeken görsel bölge tespiti 2. Denetimsiz sıfır-bilgi nesne sınıflandırma olarak sıralanabilir. Dikkat çeken görsel bölge tespiti, görsel verilerde insan gözünün öncelikli olarak odaklandığı bölgeleri bulmayı amaçlayan ve son yıllarda dikkat çeken bir bilgisayarlı görü problemidir. Bilgisayarlı görü problemleri çoğunlukla ön plan öğeleri ya da ön plan öğelerinin birbirleriyle olan etkileşimi ile ilgilenmektedir. Dolayısıyla çoğu zaman bir görüntüde ya da sahnede bulunan arka plan öğeleri yok sayılmaktadır. Bu noktada dikkat çeken görsel bölge tespiti yöntemleri, arka plan öğelerini görüntülerden temizleyerek diğer problemlerin çözümünde ön işlem adımı olarak kullanılabilir. Dikkat çeken görsel bölge tespiti problemini çözmeye yönelik olarak ortaya konulan modeller alttan-üste ve yukarıdan-aşağıya olmak üzere iki ana grupta toplanmaktadır. Alttan-üste yaklaşımlarda resimlerde mevcut olan yerel ipuçlarından faydalanılarak ön plan öğeleri tespit edilmeye çalışılmaktadır. Bu ipuçları genellikle yoğunluk, renk, doku ya da parlaklık bilgileriyle ilintili olmakta ve modeller bu bilgilerin yerel komşuluklardaki ilişkilerini incelemektedir. Yukardan-aşağıya yöntemler ise spesifik hedef tespiti yapmaya çalışmaktadır ve bu açıdan nesne tanıma problemi ile yakından ilişkilidir. Bu tez kapsamında dikkat çeken görsel bölge tahmini problemi yukarıdan-aşağıya bir yaklaşımla ele alınmaktadır. Yaklaşım, problemi koşullu rastgele alanlar çizgeleri, nitelik tabanlı sınıflandırıcılar ve seyrek kodlama kullanarak çözmeye çalışmaktadır. Bu amaçla, her bir ön plan nesnesi için ayrı koşullu alanlar çizgesi tanımlanmış ve bu çizgelerde öznitelik olarak nitelik tabanlı sınıflandıcı çıktıları kullanılmıştır. Ön plan nesnelerini diğer nesnelerden daha ayırt edici ve etkili temsil etmek adına seyrek kodlama teknikleri de çözüme dahil edilmiştir. Geliştirilen yöntem, öznitelik olarak nitelik tabanlı sınıflandıcı çıktılarını kullanması nedeniyle özgün bir yaklaşımdır. Geliştirilen yöntem Graz-02 veri kümesinde test edilmiş ve alt düzey öznitelik kullanan diğer yöntemlere göre daha başarılı sonuçlar ürettiği gözlemlenmiştir. Bu tez kapsamında ayrıca, denetimsiz sıfır-bilgi nesne tespiti probleminin çözümüne yönelik sınıf-nitelik bilgisini ele alan yeni bir yöntem önerilmiştir. Son yıllarda bilgisayarlı görü alanında kullanılan veri kümelerinin boyutları muazzam seviyelere ulaşmıştır. Bu veri kümeleri üzerinde nesne işaretlemesi yapmak büyük bir emek ve uzun uğraşlar gerektirmektedir. Bu sebeple veri kümelerinin boyutu arttıkça sıfır-bilgi tabanlı yaklaşımların önemi de artmaktadır. Sıfır-bilgi yaklaşımlarda amaç, eğitim kümesinde bulunan sınıflar üzerinden elde edilen semantik bilgiyi daha önce hiçbir örneği ile karşılaşılmamış test sınıflarına aktarmak ve bu sınıflara ait resimleri doğru şekilde sınıflandırabilmektir. Sıfır-bilgi yaklaşımlarda semantik bilgi yöntemden yönteme farklılık göstermekle birlikte son yıllarda nitelik bilgisi kullanan yaklaşımlar ön plana çıkmaktadır. Bu tez kapsamında, nitelik bilgisi sıfır-bilgi nesne ve hareket tanıma problemlerinin çözümüne yönelik aktif şekilde kullanılmaktadır. Ancak diğer yöntemlerin çoğundan farklı olarak nitelik kavramlarının yalnızca görsel değil; yazılı metinlerden elde edilen semantik bilgileri de modele dahil edilmiştir. Geliştirilen yaklaşımda kullanılan hipoteze göre bir nesne sınıfına ait semantik kelime vektörü ile bu sınıfa ait niteliklerin ortalama semantik kelime vektörü arasındaki benzerlik diğer sınıflara ait niteliklerin ortalama kelime vektörlerinden daha fazla olmalıdır. Geliştirilen yöntemde, bahsedilen hipotezi gerçekleştirebilmek ve eğitim kümesinden bu hipoteze yönelik ortaya çıkan semantik bilgiyi test sınıflarına aktarabilmek için doğrusal ve doğrusal olmayan dönüşüm matrisleri öğrenilmektedir. Yukarıda bahsedilen hipoteze dayanarak geliştirilen yöntem denetimsiz olarak çalışmaktadır. Dolayısıyla, test sınıflarına ilişkin nitelik bilgileri bilinmemektedir. Bu bilgiyi elde etmek amacıyla eğitim kümesi üzerinde nitelik tabanlı sınıflandırıcılar ayrıca eğitilmektedir. Test kümesinde çalıştırılan nitelik sınıflandırıcılardan elde edilen skorlar, o niteliğin ilgili resim için ne kadar geçerli olduğu bilgisini vermektedir. Geliştirilen yöntem, geleneksel sıfır-bilgi yöntemlerinin çoğunluğundan farklı olarak test sınıflarına ait herhangi bir bilgiye ihtiyaç duymamaktadır. Yöntem farklı veri kümelerinde değerlendirilmiş ve denetimsiz çalışan en iyi yöntemlerden daha iyi sonuçlar ürettiği gözlemlenmiştir. Ayrıca, denetimli (test sınıflarına ilişkin bilgilere ihtiyaç duyan) yöntemlerle yapılan karşılaştırma sonuçlarına göre bu yöntemlerden daha iyi ya da yaklaşık aynı sonuçlar üretmektedir

    Uzaktan Algılamalı Görüntülerde Detaylı Nesne Tanıma için Çok Kaynaklı Derin Öğrenme

    No full text
    Uzaktan algılamada nesne tanıma probleminde geleneksel olarak birbirinden çok farklı karakteristiğe sahip nesne türlerinin birbirlerinden ayırt edilmesi üzerine durulmuştur. Uzaktan algılamadan elde edilebilecek anlamsal zenginlik, daha detaylı bir seviyede nesne tanıma probleminin ele alınmasıyla çok daha üst bir seviyeye getirilebilir. Ancak, geleneksel veri kümelerinde elde edilen mükemmele yakın sınıflandırmanın aksine, 40 ağaç türü üzerinde yürütülen detaylı ağaç sınıflandırma probleminde elde edilen sınıflandırma başarısı 35% seviyesini geçememiştir. Bu amaçla, (i) 40 ağaç veri kümesinde kullanılan RGB veri kaynağına, multi-spektral ve LIDAR veri kaynakları eklenmesi ve (ii) bu tür sadece kısmen hizalanmış (diğer bir deyişle, farklı görüntüler arası pikselden-piksele haritalamanın tam olarak bilinmediği) çok tipli veri kaynağını otomatik olarak hizalayabilen ve ortak olarak değerlendirebilen yenilikçi derin öğrenme yöntemlerinin geliştirilmesi hedeflenmektedir

    Caption Generation on Scenes with Seen and Unseen Object Categories

    Full text link
    Image caption generation is one of the most challenging problems at the intersection of vision and language domains. In this work, we propose a realistic captioning task where the input scenes may incorporate visual objects with no corresponding visual or textual training examples. For this problem, we propose a detection-driven approach that consists of a single-stage generalized zero-shot detection model to recognize and localize instances of both seen and unseen classes, and a template-based captioning model that transforms detections into sentences. To improve the generalized zero-shot detection model, which provides essential information for captioning, we define effective class representations in terms of class-to-class semantic similarities, and leverage their special structure to construct an effective unseen/seen class confidence score calibration mechanism. We also propose a novel evaluation metric that provides additional insights for the captioning outputs by separately measuring the visual and non-visual contents of generated sentences. Our experiments highlight the importance of studying captioning in the proposed zero-shot setting, and verify the effectiveness of the proposed detection-driven zero-shot captioning approach.Comment: Accepted for Publication at Image and Vision Computing (IMAVIS

    Zero-Shot Object Detection by Hybrid Region Embedding

    No full text
    Object detection is considered as one of the most challenging problems in computer vision, since it requires correct prediction of both classes and locations of objects in images. In this study, we define a more difficult scenario, namely zero-shot object detection (ZSD) where no visual training data is available for some of the target object classes. We present a novel approach to tackle this ZSD problem, where a convex combination of embeddings are used in conjunction with a detection framework. For evaluation of ZSD methods, we propose a simple dataset constructed from Fashion-MNIST images and also a custom zero-shot split for the Pascal VOC detection challenge. The experimental results suggest that our method yields promising results for ZSD

    Visual Saliency Estimation via Attribute Based Classifiers and Conditional Random Field

    No full text
    Visual Saliency Estimation is a computer vision problem that aims to find the regions of interest that are frequently in eye focus in a scene or an image. Since most computer vision problems require discarding irrelevant regions in a scene, visual saliency estimation can be used as a preprocessing step in such problems. In this work, we propose a method to solve top-down saliency estimation problem using Attribute Based Classifiers and Conditional Random Fields (CRF). Experimental results show that attribute-based classifiers encode visual information better than low level features and the presented approach generates promising results compared to state-of-theart approaches on Graz-02 dataset
    corecore